Exercise 1

wyniki

Jak można było się spodziewać klasyfikacja liniowa zadziała wystarczjąco dobrze w przyapdku kiedy cechy klas znacznie różnią się od siebie, nie da się co prawda wychwycić próbke skrajnych (tj. np. czerwonych kropek w zielonej klasie), niemniej skutecnzość jest na poziomie ponad 99%, problemy są nieco większe. w przypadku klas mniej różniących się od siebie, tutaj dobranie prostej, jak widać zresztą na wykresie jest trudne i mniej skuteczne (83%)

exercise 2

wnioski

Na przedstawionych wykresach widac mniędzy innymi, że większość chorób serca jest diagnozowana u mężczyzn oraz, że nie dławicowy (non-anginal z google translate) ból w kaltce piersiowej prawdopodobnie nie świadczy o potencjalnej chorobie serca

W przypadku nietypowej dławicy piersiowej (atypical angina), należałoby się martwić, poniewac dane sugerują, że jest ona niemal gwarantem choroby serca.

Nie rysowałem wukresów kazdej zmiennej bo nie starczyło mi czasu

wnioski

histogram pierwszy sugeruje, iż w przypadku większoći pacjentów ciśnienie tętnicze nie odbiegało od normy, (nie jestem lekarzem, ale 120-150 to chyba normalna wartość), podobnie w przypadku maksymalnego pulsu, ten rzadko był na poziomie powyżej 160 (ponownie - nie jestem lekarzem, więc nie wyciągnę medycznych wniosków)

Oba histogramy mają skośne rozkłady (right-skewed, left-skewed), wynika to z naturalnych limitów organizmu ludzkiego

wnioski

na podstawie macierzy można wyciągnąć wniosek, że najbardziej skorelowane z potencjalną chorobą serca są zmienne 'chest pain type' oraz 'ST depression induced by exercise relative to rest', mogą one mieć duże znaczenie przy towrzeniu modeli i potencjalnym wykrywaniu chorób serca

wnioski

jak już wspomniałem wcześniej, najbardziej skorelowane z chorobą układu serca są 'chest pain type' oraz 'ST depression induced by exercise relative to rest', to w nich dopatrywałbym się najlepszych kandydatów do klasyfikacji

exercise 3

na podstawie macierzy korelacji wybieram 4 najbardziej skorelowane z wynikową cechy, tj 'cp', 'exang', 'oldpeak', 'slope'

jak widać zmienne cechy wybrane przez funkcję chi2 to: 'thalach', 'oldpeak', 'ca', 'thal', powtarza się tylko 'oldpeak'

wybrane zmienne: 'sex', 'thalach', 'exang', 'oldpeak'

wybrane cechy: 'exang', 'oldpeak', 'ca', 'thal'

niektóre cechy się powtarzają, jednak w żadnym przypadku nie jest wybrany dokładnie ten sam zestaw cech,

Tylko klasa brak choroby serca był klasyfikowany poprawnie z dobrą skutecznością, wyniki nie są zadowalające

Tylko klasa brak choroby serca był klasyfikowany poprawnie z dobrą skutecznością, wyniki nie są zadowalające

Tylko brak choroby serca był klasyfikowany poprawnie z dobrą skutecznością, wyniki nie są zadowalające

wnioski

podstawowym wnioskiem jest to, że zadanie jest prawdopodobnie wykonane źle, każdy klasyfikator wykazuje podobną skuteczność ok. 60%, ciężko mówić, że któryś jest faktycznie lepszy niż inny. Macierze pomyłek też nie pokazały sensownych danych. Ogólnie już kończy mi się czas, więc tego nie poprawię, nie jestem pewien, co poszło nie tak, wydaje mi się, że niepoprawnie zająłem się rozróżnianiem zmiennych kategorycznych i numerycznych.